提供者：杜成玉

简介

第一个来源于Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

下载地址

https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

相关论文

[1]Jacqueline Léon. Preference and “bias” in the format of French news interviews: the semantic analysis of question–answer pairs in conversation[J]. Journal of Pragmatics,2004,36(10).
[2]王宝勋. 面向网络社区问答对的语义挖掘研究[D].哈尔滨工业大学,2013.
[3]王君泽. 基于大规模问答语料的问题检索系统[D].华中科技大学,2010.
[4]孙林. 基于在线论坛的问答对识别研究与问答系统实现[D].哈尔滨工业大学,2010.
[5]梁维薇,吕立辉,冉蜀阳.基于特定领域的自动问题-答案对的形成[J].现代计算机(专业版),2012(36):7-11.